机器认字的原理同我们查字典的方法很相似,机器中必须先有一本“字典”,机器认字时把要认识的字跟字典中所有的标准字符逐一比较,跟待识字符相同(或最相似)的标准字符,就是所需要的待识字符。
因此要让计算机能够识字,必须先在计算机中安装一部“字典”。计算机中的字典通常叫做“特征库”或“模板库”。
在机器中怎样建立“字典”呢?
早在20世纪20年代,西方就有人研究字符自动识别的问题。有文献可考的最早的机器字符识别系统是德国人G.Tausher的“阅读机”,他的发明于1929年在德国获得专利。美国人P.W.Handel也曾研制了类似的机器,叫做“统计机”,也获得了美国的专利。当时还没有像现在这样高超的电子技术,但光学和机械制造业却相当发达。因此他们采用光学和机械相结合的办法:用机械方法事先制造所有字符的掩膜。识别时,当待识字符的字形和某一标准字符的掩膜重合时,照射到掩膜上的光线完全被待识字符所遮掩,因而没有光线通过掩膜,映射到在它后面的用来显示两者匹配与否的光敏检测器。利用这种办法,机器就能自动识别印刷在纸上的字符。现在看来,这种阅读机相当笨拙,但识别字符的原理却具有普适意义。我们今天的光符阅读机(OCR)基本上还是根据这种匹配原理来识别字符的。由于电子科学技术的飞跃发展,60年代以后,人们已不再采用机械的方法,而是采用电子技术特别是计算机来识别字符。近10多年来,计算机字符自动识别的研究已有很大的进展,国内外已有多种产品问世,并在社会各界广泛应用。多年来科学家让机器能“读书识字”的理想已经基本上实现了。
建立字典的方法是:先将标准汉字库中已知的汉字输入计算机,逐一抽取能代表每一个字的特征,组成特征库(模板库)。这一过程叫做训练或学习过程。机器认字时,把待识汉字图形输入计算机后也抽取这个汉字的特征,然后把它跟特征库中每一个标准特征逐一比较,跟待识汉字特征相同(或最相似)的标准汉字就判定是待识汉字。这一过程叫做识别过程。
联机手写汉字识别有时叫做“笔(式)输入”。顾名思义,这是用笔把汉字“写”入计算机,而不是用键盘“敲”入计算机。改敲为写,既不需要死记每个字的编码,而是像通常写字那样,用笔把字直接写入计算机,更符合中国人书写的习惯,也实现了汉字实时输入的要求;此外,这种输入方法既可以用于办公室内,也可以用于室外或其他特殊场合,是一种易学易用的较好的汉字输入方法。
笔输入装置硬件主要是书写板和书写笔两部分。书写板跟计算机相连,书写笔在书写板上写字时,笔画信号按书写顺序输入。书写板分为有压感和无压感两种类型。有压感书写笔在书写时能给出着力的轻重、笔画的粗细、着“色”的浓淡,以及书写时间的长短等信息,既可用于输入汉字与各种字符,又具有书法、绘画、签名等功能,是一种用途比较广泛的输入工具。无压感的书写笔则只用于输入字符,价格较为便宜。此外,书写笔还分为有线和无线两种。无线书写笔中有一个发信装置,用来靠电磁波把信号传给计算机,用户使用比较方便。
笔输入系统中,由书写笔传送给计算机的信号是一个一维的笔画串,而不是方块汉字的二维图形。以汉字“女”字为例,在书写板写这个字时,它的笔画(包括笔画类型及其位置)就按书写顺序依次输入计算机,形成具有一定结构关系的笔画串:“く、ノ、一”。从原理上说,把汉字集合每个汉字的笔画串存储在计算机中,就组成笔输入系统的“字典”(标准笔画串库)。在识别某一个待识汉字时,也利用书写板把该汉字的笔画串输入计算机,然后把它跟字典中所有的笔画串逐个加以比较,求得和它最相似的笔画串,就得到识别的结果。
(本文摘自《教电脑识字——浅谈汉字识别》,该书系由清华大学出版社暨南大学出版社联合出版的“院士科普书系”之一,12.00元)